Análise de qualidade de vinhos brancos por Túlio Migotto Goulart

Este relatório explora um conjunto de dados contendo 4898 vinhos brancos com 11 atributos de propriedades químicas do vinho. Três especialistas em vinhos avaliaram cada amostra, fornecendo uma nota entre 0 (muito ruim) e 10 (muito excelente). A mediana entre as notas para cada amostra foi considerada.

Seção de Gráficos Univariados

Analisando dataset

## 'data.frame':    4898 obs. of  14 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##  $ quality.factor      : Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.:1225   1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700  
##  Median :2450   Median : 6.800   Median :0.2600   Median :0.3200  
##  Mean   :2450   Mean   : 6.855   Mean   :0.2782   Mean   :0.3342  
##  3rd Qu.:3674   3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :14.200   Max.   :1.1000   Max.   :1.6600  
##                                                                   
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  2.00     
##  1st Qu.: 1.700   1st Qu.:0.03600   1st Qu.: 23.00     
##  Median : 5.200   Median :0.04300   Median : 34.00     
##  Mean   : 6.391   Mean   :0.04577   Mean   : 35.31     
##  3rd Qu.: 9.900   3rd Qu.:0.05000   3rd Qu.: 46.00     
##  Max.   :65.800   Max.   :0.34600   Max.   :289.00     
##                                                        
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  9.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.:108.0        1st Qu.:0.9917   1st Qu.:3.090   1st Qu.:0.4100  
##  Median :134.0        Median :0.9937   Median :3.180   Median :0.4700  
##  Mean   :138.4        Mean   :0.9940   Mean   :3.188   Mean   :0.4898  
##  3rd Qu.:167.0        3rd Qu.:0.9961   3rd Qu.:3.280   3rd Qu.:0.5500  
##  Max.   :440.0        Max.   :1.0390   Max.   :3.820   Max.   :1.0800  
##                                                                        
##     alcohol         quality      quality.factor
##  Min.   : 8.00   Min.   :3.000   3:  20        
##  1st Qu.: 9.50   1st Qu.:5.000   4: 163        
##  Median :10.40   Median :6.000   5:1457        
##  Mean   :10.51   Mean   :5.878   6:2198        
##  3rd Qu.:11.40   3rd Qu.:6.000   7: 880        
##  Max.   :14.20   Max.   :9.000   8: 175        
##                                  9:   5

Analisando variável quality

## # A tibble: 7 x 2
##   quality.factor     n
##   <ord>          <int>
## 1 3                 20
## 2 4                163
## 3 5               1457
## 4 6               2198
## 5 7                880
## 6 8                175
## 7 9                  5

Há 4898 observações com 14 variáveis (considerando variável criada quality.factor) e nenhum valor faltante. Todas as variáveis de input são do tipo numérico e a variável output (qualidade) é categórica. Por isso, criou-se a variável quality.factor para representar um fator com ordem crescente. Percebe-se que apenas 5 vinhos obtiveram nota 9 (0,18%), 175 nota 8 (3,57%) e 880 nota 7 (17,97%), sendo que a maioria recebeu nota 6, 2198 observações (44,87%), seguida da nota 5 com 1457 (29,75%) observações, e por fim, 183 (3,74%) obtiveram notas baixas, 163 notas 4 (3,33%), 20 notas 3 (0,41%) e não há ocorrências das notas 0, 1, 2 e 10.

Analisando atributo fixed.acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.855   7.300  14.200
## [1] 119

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 6,855 e 6,800, respectivamente. Ainda, nota-se a presença de 119 outliers.

Analisando atributo volatile.acidity

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2782  0.3200  1.1000
## [1] 186
## [1] 97

Observa-se uma distribuição não normal (positively skewed) dos dados, com formato de cauda longa, estando os dados concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição normal, verificada no segundo histograma. Ainda, nota-se a presença de 186 outliers sem transformação logarítmica e 97 com transformação logarítmica.

Analisando atributo citric.acid

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3342  0.3900  1.6600
## [1] 270

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 0,3342 e 0,3200, respectivamente. Ainda, nota-se a presença de 270 outliers.

Analisando atributo residual.sugar

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.700   5.200   6.391   9.900  65.800
## [1] 7
## [1] 0

Observa-se uma distribuição não normal (positively skewed) dos dados, com formato de cauda longa, estando os dados concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição normal, verificada no segundo histograma. Ainda, nota-se a presença de apenas 7 outliers sem transformação logarítmica e nenhum com transformação logarítmica.

Analisando atributo chlorides

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
## [1] 208
## [1] 237

Observa-se uma distribuição não normal (positively skewed) dos dados, com formato de cauda longa, estando os dados concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição normal, verificada no segundo histograma. Ainda, nota-se a presença de 208 outliers sem transformação logarítmica e 237 com transformação logarítmica.

Analisando atributo free.sulfur.dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   34.00   35.31   46.00  289.00
## [1] 50

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 35,31 e 34,00, respectivamente. Ainda, nota-se a presença de 50 outliers.

Analisando atributo total.sulfur.dioxide

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   108.0   134.0   138.4   167.0   440.0
## [1] 19

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 138,4 e 134,0, respectivamente. Ainda, nota-se a presença de 19 outliers.

Analisando atributo density

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9917  0.9937  0.9940  0.9961  1.0390
## [1] 5

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 0,994 e 0,9937, respectivamente. Ainda, nota-se a presença de 5 outliers.

Analisando atributo pH

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.188   3.280   3.820
## [1] 75

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 3,188 e 3,180, respectivamente. Ainda, nota-se a presença de 75 outliers.

Analisando atributo sulphates

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.4100  0.4700  0.4898  0.5500  1.0800
## [1] 124
## [1] 51

Observa-se uma distribuição não normal (positively skewed) dos dados, estando os dados mais concentrados a esquerda do eixo das abcissas. Logo, foi realizado uma transformação logarítmica (base 10) para obter uma distribuição mais normal, verificada no segundo histograma. Ainda, nota-se a presença de 124 outliers sem transformação logarítmica e 51 com transformação logarítmica.

Analisando atributo alcohol

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.51   11.40   14.20
## [1] 0

Observa-se uma distribuição normal dos dados, tendo média e mediana com valores próximos, 10,52 e 10,40, respectivamente. Ainda, não nota-se a presença de outliers.

Tabela que apresenta as médias dos atributos entre as diferentes notas de qualidade

quality mean_fixed.acidity mean_volatile.acidity mean_citric.acid mean_residual.sugar mean_chlorides mean_free.sulfur.dioxide mean_total.sulfur.dioxide mean_density mean_pH mean_sulphates mean_alcohol
3 7.600000 0.3332500 0.3360000 6.392500 0.0543000 53.32500 170.6000 0.9948840 3.187500 0.4745000 10.34500
4 7.129448 0.3812270 0.3042331 4.628221 0.0500982 23.35890 125.2791 0.9942767 3.182883 0.4761350 10.15245
5 6.933974 0.3020110 0.3376527 7.334969 0.0515463 36.43205 150.9046 0.9952626 3.168833 0.4822032 9.80884
6 6.837671 0.2605641 0.3380255 6.441606 0.0452175 35.65059 137.0473 0.9939613 3.188599 0.4911056 10.57537
7 6.734716 0.2627670 0.3256250 5.186477 0.0381909 34.12557 125.1148 0.9924524 3.213898 0.5031023 11.36794
8 6.657143 0.2774000 0.3265143 5.671429 0.0383143 36.72000 126.1657 0.9922359 3.218686 0.4862286 11.63600
9 7.420000 0.2980000 0.3860000 4.120000 0.0274000 33.40000 116.0000 0.9914600 3.308000 0.4660000 12.18000

Análise Univariada

Qual é a estrutura do conjunto de dados?

Há 4898 amostras de vinho no dataset com 12 atributos. O número de amostras de vinho são armazenados na variável (integer) ‘X’. Os atributos (numerical), variáveis inputs, são: fixed.acidity (acidez fixa); volatile.acidity (acidez volátil); citric.acid (acidez cítrica); residual.sugar (açúcar residual); chlorides (cloretos); free.sulfur.dioxide (dióxido sulfúrico em forma livre); total.sulfur.dioxide (total de dióxido sulfúrico em forma livre e ácido sulfuroso); density (densidade); pH; sulphates (sulfatos); alcohol (álcool). A variável de output, baseada em dados sensoriais, é a variável (integer) ‘quality’, a qual representa a nota de 0 a 10 para o respectivo vinho analisado.

Outras observações:
- Maioria dos vinhos possuem notas 6 (44,87%) e 5 (29,75%).
- Não houveram ocorrências de notas 0, 1, 2 e 10.
- Poucos vinhos obtiveram notas 3, 4, 8 e 9.
- Apenas 5 vinhos (0,18%) obtiveram nota 9.
- Alguns atributos possuem distribuição não normal, por isso foram transformados em escala logarítimica a fim de normalizá-los.

Quais são os principais atributos de interesse deste conjunto de dados?

O principal atributo é quality (qualidade). Será analisado quais atributos podem estar relacionados à qualidade do vinho. Busca-se descobrir quais são diretamente relacionados a qualidade, e então outros que podem relacionar-se com os diretamente relacionados com a qualidade e assim idealizar as propriedades químicas para obter um vinho de boa qualidade.

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Procuro realizar uma análise completa sem pré definições. Logo, acredito que todo o restante dos atributos podem auxiliar na investigação.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Sim, a variável quality.factor, a qual representa uma variável fator originada a partir da variável quality. Também, foi criado um dataframe com as variáveis que não possuem distribuição normal, transformadas em escala logarítimica, para ser utilizado no decorrer do projeto, principalmente para quando o modelo preditivo for construído.

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê??

Sim, foi encontrado algumas distribuições com formato de cauda longa (positively skewed), sendo os dados concentrados a esquerda do eixo das abcisass. Com isso, transformações logarítmicas foram realizadas a fim de obter uma ditribuição normal.

Seção de Gráficos Bivariados

Em cada atributo foi realizado análise de relacionamento com a variável de interesse quality. Para todos os relacionamentos, foi realizado cálculo de correlação com o método de Pearson.

Relacionamento fixed.acidity com quality

## 
##  Pearson's product-moment correlation
## 
## data:  fixed.acidity and quality
## t = -8.005, df = 4896, p-value = 1.48e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.14121974 -0.08592991
## sample estimates:
##        cor 
## -0.1136628

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20   4.2  11.8     7.3  7.6     1.95
## 2 4                163   4.8  10.2     6.9  7.13    1.20
## 3 5               1457   4.5  10.3     6.8  6.93    1   
## 4 6               2198   3.8  14.2     6.8  6.84    1   
## 5 7                880   4.2   9.2     6.7  6.73    1   
## 6 8                175   3.9   8.2     6.8  6.66    1.10
## 7 9                  5   6.6   9.1     7.1  7.42    0.5

Analisando o relacionamento da variável fixed.acidity com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0.11.Também, foi analisado a distribuição da variável fixed.acidity com quality.factor através do gráfico de boxplot. Percebe-se uma baixa variabilidade dos dados e pouca diferença entre as medianas, médias e distribuições da variável fixed.acidity entre cada valor de quality.factor. Por fim, através do scatter plot nota-se a concentração dos dados nas notas 6 e 5, e a baixa correlação negativa entre as variáveis.

Relacionamento volatile.acidity com quality

## 
##  Pearson's product-moment correlation
## 
## data:  volatile.acidity and quality
## t = -13.891, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2215214 -0.1676307
## sample estimates:
##       cor 
## -0.194723
## 
##  Pearson's product-moment correlation
## 
## data:  log10(volatile.acidity) and quality
## t = -14.087, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2241308 -0.1702981
## sample estimates:
##        cor 
## -0.1973632

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20  0.17 0.64     0.26 0.333   0.175
## 2 4                163  0.11 1.1      0.32 0.381   0.190
## 3 5               1457  0.1  0.905    0.28 0.302   0.1  
## 4 6               2198  0.08 0.965    0.25 0.261   0.100
## 5 7                880  0.08 0.76     0.25 0.263   0.13 
## 6 8                175  0.12 0.66     0.26 0.277   0.13 
## 7 9                  5  0.24 0.36     0.27 0.298   0.100

Analisando o relacionamento da variável volatile.acidity com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0,195 para os dados não transformados e -0,197 para os dados transformados. Também, foi analisado a distribuição da variável volatile.acidity com quality.factor através do gráfico boxplot. Percebe-se uma média variabilidade dos dados e uma baixa diferença entre as medianas e médias da variável volatile.acidity entre cada valor de quality.factor. Por fim, através do scatter plot nota-se a fraca correlação negativa entre as variáveis. Não houve expressiva diferença entre a correlação do atributo não transformado com o transformado em escala logarítmica.

Relacionamento citric.acid com quality

## 
##  Pearson's product-moment correlation
## 
## data:  citric.acid and quality
## t = -0.6444, df = 4896, p-value = 0.5193
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.03720595  0.01880221
## sample estimates:
##          cor 
## -0.009209091

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20 0.21   0.47   0.345 0.336  0.128 
## 2 4                163 0      0.88   0.290 0.304  0.21  
## 3 5               1457 0      1      0.32  0.338  0.17  
## 4 6               2198 0      1.66   0.32  0.338  0.110 
## 5 7                880 0.01   0.74   0.31  0.326  0.0800
## 6 8                175 0.04   0.74   0.32  0.327  0.0800
## 7 9                  5 0.290  0.49   0.36  0.386  0.110

Analisando o relacionamento da variável citric.acidity com a variável quality, não nota-se correlação, com valor igual a aproximadamente -0.009. Por fim, foi analisado a distribuição da variável citric.acid com quality.factor através do gráfico de boxplot. Percebe-se uma baixa variabilidade dos dados e pouca diferença entre as medianas, médias e distribuições da variável citric.acidity entre cada valor de quality.factor. Por fim, através do scatter plot não nota-se correlação entre as variáveis.

Relacionamento residual.sugar com quality

## 
##  Pearson's product-moment correlation
## 
## data:  residual.sugar and quality
## t = -6.8603, df = 4896, p-value = 7.724e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.12524103 -0.06976101
## sample estimates:
##         cor 
## -0.09757683
## 
##  Pearson's product-moment correlation
## 
## data:  log10(residual.sugar) and quality
## t = -4.5319, df = 4896, p-value = 5.986e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09247084 -0.03669172
## sample estimates:
##         cor 
## -0.06463176

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20   0.7  16.2    4.6   6.39    9.11
## 2 4                163   0.7  17.6    2.5   4.63    5.8 
## 3 5               1457   0.6  23.5    7     7.33    9.7 
## 4 6               2198   0.7  65.8    5.3   6.44    8.2 
## 5 7                880   0.9  19.2    3.65  5.19    5.62
## 6 8                175   0.8  14.8    4.3   5.67    6.1 
## 7 9                  5   1.6  10.6    2.2   4.12    2.2

Analisando o relacionamento da variável residual.sugar com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0,10 para os dados não transformados e -0,06 para os dados transformados. Por fim, foi analisado a distribuição da variável residual.sugar com quality.factor através do gráfico boxplot. Percebe-se uma alta variabilidade dos dados, alto IQR e uma alta diferença entre as medianas e médias da variável residual.sugar entre cada valor de quality.factor. Por fim, através do scatter plot nota-se a fraca correlação negativa entre as variáveis. Houve diferença entre a correlação do atributo não transformado com o transformado em escala logarítmica, porém de forma a diminuir ainda mais a correlação de Pearson.

Relacionamento chlorides com quality

## 
##  Pearson's product-moment correlation
## 
## data:  chlorides and quality
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2365501 -0.1830039
## sample estimates:
##        cor 
## -0.2099344
## 
##  Pearson's product-moment correlation
## 
## data:  log10(chlorides) and quality
## t = -19.845, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2985814 -0.2467357
## sample estimates:
##        cor 
## -0.2728567

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana  Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl>  <dbl>   <dbl>
## 1 3                 20 0.022 0.244   0.041 0.0543  0.0178
## 2 4                163 0.013 0.290   0.046 0.0501  0.016 
## 3 5               1457 0.009 0.346   0.047 0.0515  0.0130
## 4 6               2198 0.015 0.255   0.043 0.0452  0.013 
## 5 7                880 0.012 0.135   0.037 0.0382  0.0130
## 6 8                175 0.014 0.121   0.036 0.0383  0.0140
## 7 9                  5 0.018 0.035   0.031 0.0274  0.011

Analisando o relacionamento da variável chlorides com a variável quality, nota-se uma moderada correlação negativa, com valor igual a aproximadamente -0,21 para os dados não transformados e mais forte para os dados transformados, -0,27. Também, foi analisado a distribuição da variável chlorides com quality.factor através do gráfico boxplot. Percebe-se uma média variabilidade dos dados. Por fim, através do scatter plot nota-se a fraca correlação negativa entre as variáveis. Houve diferença entre a correlação do atributo não transformado com o transformado em escala logarítmica, de forma a aumantar a forla da correlação de Pearson. Nota-se no gráfico, a tendência negativa de quanto menor o percentual de sal no vinho, maior a sua nota de qualidade. Percebe-se também que os 5 vinhos com nota 9 possuem menos sal que grande parte do restante da amostragem.

Relacionamento free.sulfur.dioxide com quality

## 
##  Pearson's product-moment correlation
## 
## data:  free.sulfur.dioxide and quality
## t = 0.57085, df = 4896, p-value = 0.5681
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.01985292  0.03615626
## sample estimates:
##         cor 
## 0.008158067

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20     5  289     33.5  53.3    34.2
## 2 4                163     3  138.    18    23.4    21.5
## 3 5               1457     2  131     35    36.4    28  
## 4 6               2198     3  112     34    35.7    22  
## 5 7                880     5  108     33    34.1    16  
## 6 8                175     6  105     35    36.7    16.5
## 7 9                  5    24   57     28    33.4     4

Analisando o relacionamento da variável free.sulfur.dioxide com a variável quality, não nota-se correlação, com valor igual a aproximadamente 0.008. Também, foi analisado a distribuição da variável free.sulfur.dioxide com quality.factor através do gráfico de boxplot. Percebe-se uma baixa variabilidade dos dados e pouca diferença entre as medianas, médias e distribuições da variável free.sulfur.dioxide entre cada valor de quality.factor. Por fim, através do scatter plot não é verificado correlação entre as variáveis.

Relacionamento total.sulfur.dioxide com quality

## 
##  Pearson's product-moment correlation
## 
## data:  total.sulfur.dioxide and quality
## t = -12.418, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2017563 -0.1474524
## sample estimates:
##        cor 
## -0.1747372

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20    19  440     160.  171.   104. 
## 2 4                163    10  272     117   125.    86.5
## 3 5               1457     9  344     151   151.    61  
## 4 6               2198    18  294     132   137.    56.8
## 5 7                880    34  229     122   125.    43.2
## 6 8                175    59  212.    122   126.    47.5
## 7 9                  5    85  139     119   116     11

Analisando o relacionamento da variável total.sulfur.dioxide com a variável quality, nota-se uma fraca correlação negativa, com valor igual a aproximadamente -0,17. Por fim, foi analisado a distribuição da variável total.sulfur.dioxide com quality.factor através do gráfico de boxplot. Percebe-se uma média variabilidade dos dados e diferenças entre as medianas, médias e distribuições da variável total.sulfur.dioxide para cada valor de quality.factor. Por fim, através do scatter plot nota-se a fraca correlação positiva entre as variáveis.

Relacionamento density com quality

## 
##  Pearson's product-moment correlation
## 
## data:  density and quality
## t = -22.581, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3322718 -0.2815385
## sample estimates:
##        cor 
## -0.3071233

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20 0.991 1.00    0.994 0.995 0.00440
## 2 4                163 0.989 1.00    0.994 0.994 0.0032 
## 3 5               1457 0.987 1.00    0.995 0.995 0.0039 
## 4 6               2198 0.988 1.04    0.994 0.994 0.00417
## 5 7                880 0.987 1.00    0.992 0.992 0.00312
## 6 8                175 0.987 1.00    0.992 0.992 0.00318
## 7 9                  5 0.990 0.997   0.990 0.991 0.00075

Analisando o relacionamento da variável density com a variável quality, nota-se uma moderada correlação negativa, com valor igual a aproximadamente -0,307. Também, foi analisado a distribuição da variável density com quality.factor através do gráfico de boxplot. Percebe-se uma pequena variabilidade dos dados, principalmente em relação a 4 vinhos com nota 9, os quais possuem menor densidade do que grande parte da amostragem. Por fim, através do scatter plot nota-se a moderada correlação positiva entre as variáveis, sendo que em notas superiores a 5 verifica-se a tendência negativa com maior força, em que quanto menor a densidade, maior a nota de qualidade do vinho.

Relacionamento pH com quality

## 
##  Pearson's product-moment correlation
## 
## data:  pH and quality
## t = 6.9917, df = 4896, p-value = 3.081e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.07162022 0.12707983
## sample estimates:
##        cor 
## 0.09942725

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20  2.87  3.55    3.22  3.19   0.29 
## 2 4                163  2.83  3.72    3.16  3.18   0.210
## 3 5               1457  2.79  3.79    3.16  3.17   0.16 
## 4 6               2198  2.72  3.81    3.18  3.19   0.200
## 5 7                880  2.84  3.82    3.2   3.21   0.220
## 6 8                175  2.94  3.59    3.23  3.22   0.210
## 7 9                  5  3.2   3.41    3.28  3.31   0.09

Analisando o relacionamento da variável pH com a variável quality, não nota-se correlação, com valor igual a aproximadamente 0.099. Também, foi analisado a distribuição da variável pH com quality.factor através do gráfico de boxplot. Percebe-se uma média variabilidade dos dados e baixa diferencça entre medianas e médias entre cada valor de quality.factor. Por fim, através do scatter plot não observa-se correlação entre as variáveis.

Relacionamento sulphates com quality

## 
##  Pearson's product-moment correlation
## 
## data:  sulphates and quality
## t = 3.7613, df = 4896, p-value = 0.000171
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.02571007 0.08156172
## sample estimates:
##        cor 
## 0.05367788
## 
##  Pearson's product-moment correlation
## 
## data:  log10(sulphates) and quality
## t = 2.6444, df = 4896, p-value = 0.008209
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.009770046 0.065703130
## sample estimates:
##        cor 
## 0.03776617

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20  0.28  0.74    0.44 0.475   0.162
## 2 4                163  0.25  0.87    0.47 0.476   0.16 
## 3 5               1457  0.27  0.88    0.47 0.482   0.11 
## 4 6               2198  0.23  1.06    0.48 0.491   0.14 
## 5 7                880  0.22  1.08    0.48 0.503   0.17 
## 6 8                175  0.25  0.95    0.46 0.486   0.205
## 7 9                  5  0.36  0.61    0.46 0.466   0.06

Analisando o relacionamento da variável sulphates com a variável quality, não nota-se correlação, com valor igual a aproximadamente 0,054 para os dados não transformados e 0,038 para os dados transformados. Também, foi analisado a distribuição da variável sulphates com quality.factor através do gráfico boxplot. Percebe-se uma média variabilidade dos dados e pouca diferença das médias e medianas entre as diferentes notas. Por fim, através do scatter plot não observa-se correlação entre as variáveis tanto com os dados não transformados quanto com os dados transformados.

Relacionamento alcohol com quality

## 
##  Pearson's product-moment correlation
## 
## data:  alcohol and quality
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4126015 0.4579941
## sample estimates:
##       cor 
## 0.4355747

## # A tibble: 7 x 7
##   quality.factor     n   Min   Max Mediana Media IQRange
##   <ord>          <int> <dbl> <dbl>   <dbl> <dbl>   <dbl>
## 1 3                 20   8    12.6    10.4 10.3    1.45 
## 2 4                163   8.4  13.5    10.1 10.2    1.35 
## 3 5               1457   8    13.6     9.5  9.81   1.1  
## 4 6               2198   8.5  14      10.5 10.6    1.8  
## 5 7                880   8.6  14.2    11.4 11.4    1.7  
## 6 8                175   8.5  14      12   11.6    1.60 
## 7 9                  5  10.4  12.9    12.5 12.2    0.300

Analisando o relacionamento da variável alcohol com a variável quality, nota-se a mais forte correlação entre os atributos e a variável quality, com valor positivo de 0.436. Também, foi analisado a distribuição da variável alcohol com quality.factor através do gráfico de boxplot. Percebe-se uma média variabilidade dos dados e diferenças das médias e medianas entre as notas. Verifica-se a tendência positiva da correlação entre alcohol e quality, a partir da nota 6. Por fim, através do scatter plot observa-se a relativamente forte correlação positiva entre as variáveis. Pode-se observar que 4 dos 5 vinhos com nota 9 obtiveram índice maior que a maioria dos dados da amostragem, sendo que 1 (outlier) apresentou o valor da mediana da amostragem, 10,4%.

Investigando relacionamentos entre todas as variáveis com Matriz de Correlação

Matriz de correlação em dataframe com os dados originais

##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"             
## [13] "quality.factor"

Matriz de correlação em dataframe com os dados normalizados

##  [1] "fixed.acidity"        "volatile.acidity"     "citric.acid"         
##  [4] "residual.sugar"       "chlorides"            "free.sulfur.dioxide" 
##  [7] "total.sulfur.dioxide" "density"              "pH"                  
## [10] "sulphates"            "alcohol"              "quality"

Analisando ambos dataframes, correlações com maior força (acima de módulo de 0,4) em ordem decrescente: 1.density e residual.sugar: 0,816; 2.density e alcohol: -0,8; 3.free.sulfur.dioxide e total.sulfur.dioxide: 0,615; 4.total.sulfur.dioxide e density: 0,506; 5.log10(chlorides) e alcohol: -0.489; 6.alcohol e quality: 0,464; 7.residual.sugar e alcohol: -0,435; 8.total.sulfur.dioxide e alcohol: -0,424.

Plotando scatter plots dos três relacionamentos mais fortes

1. Relacionamento de density com residual.sugar

## 
##  Pearson's product-moment correlation
## 
## data:  residual.sugar and density
## t = 107.87, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8304732 0.8470698
## sample estimates:
##       cor 
## 0.8389665

Discussão do gráfico na questões de Análise Bivariada a seguir.

2. Relacionamento de density com alcohol

## 
##  Pearson's product-moment correlation
## 
## data:  density and alcohol
## t = -87.255, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7908646 -0.7689315
## sample estimates:
##        cor 
## -0.7801376

Discussão do gráfico na questões de Análise Bivariada a seguir.

3. Relacionamento de free.sulfur.dioxide com total.sulfur.dioxide

## 
##  Pearson's product-moment correlation
## 
## data:  free.sulfur.dioxide and total.sulfur.dioxide
## t = 54.645, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5977994 0.6326026
## sample estimates:
##      cor 
## 0.615501

Discussão do gráfico na questões de Análise Bivariada a seguir.

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Vericado que as variáveis alcohol e density são as que possuem correlação de “Pearson” mais fortes com a variável quality. Álcool é uma correlação positiva, há mais incidência de notas altas para percentuais maiores de álcool. Já densidade é uma correlação negativa, ou seja, quanto menor densidade, menos notas altas são identificadas. Também é importante ressaltar que densidade com álcool possui uma forte correlação negativa, ou seja, verifica-se que vinhos com menores densidades possuem maiores percentuais de álcool.

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Relacionamentos entre atributos não relacionados com qualidade:
- density e residual.sugar: 0,816;
- density e alcohol: -0,8;
- free.sulfur.dioxide e total.sulfur.dioxide: 0,615;
- total.sulfur.dioxide e density: 0,506;
- log10(chlorides) e alcohol: -0.489;
- residual.sugar e alcohol: -0,435;
- total.sulfur.dioxide e alcohol: -0,424.

Qual foi o relacionamento mais forte encontrado?

Açúcar residual com a densidade do vinho foi o relacionamento mais forte, seguido pelo relacionamento inversamente proporcional da densidade com o percentual alcoólico. Além disso, nota-se relacionamento entre dióxido de enxofre livre e dióxido de enxofre total, o que era esperado, visto que a quantidade de dióxido de enxofre livre faz parte da quantidade total de dióxido de enxofre no vinho. Também, nota-se relacionamento proporcional da quantidade total de dióxido de enxofre no vinho com densidade e inversamente proporcional com o percentual de álcool. Por fim, nota-se que o açúcar residual do vinho é inversamente proporcional com o percentual alcoólico, o que era esperado, visto que álcool é formado a partir de moléculas de açúcar.

Seção de gráficos Multivariados

As variáveis alcohol, density e quality foram segmentadas com o intuito de melhorar a visualização de possíveis tendências.

Segmentações da nota de qualidade Qualidade: (3,4); (5,6); (7,8,9) Segmentação de álcool em 5 níveis e densidade em 4.

A seguir, é apresentado diversos gráficos com o intuito de buscar relacionamentos multivariados. A discussão sobre os relacionamentos mais claros identificados estão descritas ao final da seção.

Relacionamento de residual.sugar x density x quality

Relacionamento de residual.sugar x density x alcohol

Relacionamento de log10(chlorides) x alcohol x quality

Relacionamento de free.sulfur.dioxide x total.sulfur.dioxide x quality

Relacionamento de free.sulfur.dioxide x total.sulfur.dioxide x density

Relacionamento de residual.sugar x alcohol/density x quality

## 
##  Pearson's product-moment correlation
## 
## data:  residual.sugar and alcohol/density
## t = -36.438, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4836319 -0.4395611
## sample estimates:
##        cor 
## -0.4618815
## 
##  Pearson's product-moment correlation
## 
## data:  alcohol/density and quality
## t = 33.8, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4119777 0.4574000
## sample estimates:
##       cor 
## 0.4349655

Relacionamento de total.sulfur.dioxide x alcohol/density x quality

## 
##  Pearson's product-moment correlation
## 
## data:  total.sulfur.dioxide and alcohol/density
## t = -35.555, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4749829 -0.4304574
## sample estimates:
##        cor 
## -0.4530026
## 
##  Pearson's product-moment correlation
## 
## data:  alcohol/density and quality
## t = 33.8, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4119777 0.4574000
## sample estimates:
##       cor 
## 0.4349655

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

Menores níveis de açúcar residual e de ácido sulfúrico total relacionam-se com maiores índices da relação alcohol/density, a qual quanto maior, maior a concentração de notas altas.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Notas altas de qualidade concentram-se em menores níveis de cloro, os quais relacionam-se de forma diretamente proporcional com o percentual alcoólico.

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.

Modelo de regressão linear para prever variável quality

## 
## Calls:
## m1: lm(formula = quality ~ alcohol, data = df_normalize)
## m2: lm(formula = quality ~ alcohol + density, data = df_normalize)
## m3: lm(formula = quality ~ alcohol + density + residual.sugar, data = df_normalize)
## m4: lm(formula = quality ~ alcohol + density + residual.sugar + chlorides, 
##     data = df_normalize)
## m5: lm(formula = quality ~ alcohol + density + residual.sugar + chlorides + 
##     total.sulfur.dioxide, data = df_normalize)
## 
## =========================================================================================
##                             m1           m2           m3           m4           m5       
## -----------------------------------------------------------------------------------------
##   (Intercept)              5.878***     5.878***     5.878***     5.878***     5.878***  
##                           (0.011)      (0.011)      (0.011)      (0.011)      (0.011)    
##   alcohol                  0.386***     0.443***     0.350***     0.328***     0.329***  
##                           (0.011)      (0.018)      (0.021)      (0.021)      (0.021)    
##   density                               0.074***    -0.140***    -0.129***    -0.131***  
##                                        (0.018)      (0.029)      (0.029)      (0.029)    
##   residual.sugar                                     0.186***     0.178***     0.177***  
##                                                     (0.020)      (0.020)      (0.020)    
##   chlorides                                                      -0.052***    -0.053***  
##                                                                  (0.013)      (0.013)    
##   total.sulfur.dioxide                                                         0.004     
##                                                                               (0.013)    
## -----------------------------------------------------------------------------------------
##   R-squared                0.190        0.192        0.207        0.210        0.210     
##   N                     4898         4898         4898         4898         4898         
## =========================================================================================
##   Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
## 
## Call:
## lm(formula = quality ~ alcohol + density + residual.sugar, data = df_normalize)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5983 -0.5428  0.0024  0.4799  3.1158 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     5.87791    0.01127 521.444  < 2e-16 ***
## alcohol         0.34996    0.02054  17.035  < 2e-16 ***
## density        -0.13978    0.02887  -4.842 1.33e-06 ***
## residual.sugar  0.18617    0.01965   9.477  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7889 on 4894 degrees of freedom
## Multiple R-squared:  0.207,  Adjusted R-squared:  0.2065 
## F-statistic: 425.9 on 3 and 4894 DF,  p-value: < 2.2e-16

Realizar um modelo linear pode não ser o ideal, visto que para prever uma variável categórica é preferível utilizar um modelo de classificação e não de regressão. Entretanto, inicialmente foi tentado obter uma equação linear que pudesse prever a variável quality como um problema de regressão. Conforme métricas analisadas, o modelo não demonstrou bom desempenho, obtendo um índice de R-quadrado de apenas 21%.

Modelo de classificação com SVM para prever variável quality

Matriz de Confusão e Acurácia
3 4 5 6 7 8 9
3 0 0 2 3 0 0 0
4 0 7 17 17 0 0 0
5 0 4 238 116 6 0 0
6 0 2 77 422 47 2 0
7 0 1 6 84 124 5 0
8 0 0 0 15 10 19 0
9 0 0 0 0 1 0 0
## [1] 0.6612245
##       y_pred
## y_true   3   4   5   6   7   8   9
##      3   0   0   2   3   0   0   0
##      4   0   7  17  17   0   0   0
##      5   0   4 238 116   6   0   0
##      6   0   2  77 422  47   2   0
##      7   0   1   6  84 124   5   0
##      8   0   0   0  15  10  19   0
##      9   0   0   0   0   1   0   0

Na primeira modelagem com SVM, os resultados não estavam satisfatórios, pois os valores previstos pelo modelo estavam fortemente enviezados para as notas 5 e 6. Após alterações nos hiperparâmetros, foi selecionado o tipo de kernel ‘radial’ (RBF), custo (fator C) igual a 10 e gama igual a 0,5. Assim, obteve-se resultados satisfatórios, com melhor generalização do modelo, conforme apresentado na Matriz de Confusão acima. A acurácia do modelo obteve um valor de 66,12%, o que não é ruim, considerando que a probabilidade de acertar um número de 0 a 10 é 10%, o modelo é 6 vezes mais acurado. Entretanto, nota-se uma baixa sensibilidade para identificar as notas ruins 3 e 4, onde o modelo está tendenciando a prever notas 5 e 6. Nas outras notas, o modelo demonstra melhores resultados. Foi desenvolvido outro modelo com a finalidade de classificar a qualidade do vinho em “RUIM”, “MEDIO”, “BOM”. Foi considerado vinhos ruins aqueles com notas abaixo de 5, médio com nota 5 e 6, e bons vinhos para aqueles com notas acima de 6.

Modelo de classificação com SVM para prever qualidade dos vinhos entre ruins, médios e bons

Matriz de Confusão e Acurácia
RUIM MEDIO ALTO
RUIM 8 36 2
MEDIO 5 843 66
ALTO 1 108 156
## [1] 0.8220408

O modelo para prever a qualidade do vinho entre ruim, médio e bom obteve uma maior acurácia que o modelo anterior, obtendo um valor de 82,20%. Em relação a acurácia para identificar notas altas, o modelo não é tão preciso quanto a identificar notas médias, porém obteve uma acurácia satisfatória de 58,87% (156/265), sendo que apenas um vinho com nota alta foi classificado como nota ruim. Notas médias obtiveram uma excelente acurácia, com valor igual a 92,23% (843/914). Entretanto, nota-se novamente a pouca sensibilidade de o modelo identificar vinhos ruins, obtendo uma acurácia de 17,39% (8/46).

A seguir, é realizado o método PCA (Principal Component Analysis) e utilizado o modelo, após a transformação dos dados em Principal Components.

Transformando dataset com PCA

## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6
## Standard deviation     1.8206 1.2658 1.1040 1.02259 0.98262 0.91430
## Proportion of Variance 0.3013 0.1457 0.1108 0.09506 0.08778 0.07599
## Cumulative Proportion  0.3013 0.4470 0.5578 0.65288 0.74066 0.81665
##                            PC7     PC8    PC9   PC10    PC11
## Standard deviation     0.84720 0.76023 0.6284 0.5358 0.19791
## Proportion of Variance 0.06525 0.05254 0.0359 0.0261 0.00356
## Cumulative Proportion  0.88190 0.93444 0.9703 0.9964 1.00000

##  [1] 3.31475139 1.60235738 1.21885988 1.04569454 0.96554452 0.83594241
##  [7] 0.71774520 0.57794322 0.39488686 0.28710646 0.03916816
##  [1] 0.301341035 0.145668853 0.110805443 0.095063140 0.087776775
##  [6] 0.075994764 0.065249563 0.052540293 0.035898805 0.026100587
## [11] 0.003560742

O resultado do modelo PCA não foi satisfatório para esse dataset, visto que para compreender mais de 90% da variância dos atributos, foram necessários 8 dos 11 componentes principais.

Modelo de classificação com SVM para prever variável quality com os dados transformados em PCs

Matriz de Confusão e Acurácia
RUIM MEDIO ALTO
RUIM 10 34 2
MEDIO 19 784 111
ALTO 1 110 154
## [1] 0.7738776

Aplicando o modelo SVM na amostra com a dimensionalidade do dataset reduzida, a acurácia reduziu um pouco, obtendo um valor de 77,39%.

Modelo de regressão linear para prever variável density

## 
## Calls:
## d1: lm(formula = density ~ residual.sugar, data = df_normalize)
## d2: lm(formula = density ~ residual.sugar + alcohol, data = df_normalize)
## d3: lm(formula = density ~ residual.sugar + alcohol + quality, data = df_normalize)
## d4: lm(formula = density ~ residual.sugar + alcohol + quality + total.sulfur.dioxide, 
##     data = df_normalize)
## d5: lm(formula = density ~ residual.sugar + alcohol + quality + total.sulfur.dioxide + 
##     chlorides, data = df_normalize)
## 
## =========================================================================================
##                             d1           d2           d3           d4           d5       
## -----------------------------------------------------------------------------------------
##   (Intercept)             -0.000       -0.000        0.200***     0.195***     0.183***  
##                           (0.009)      (0.006)      (0.042)      (0.041)      (0.041)    
##   residual.sugar           0.756***     0.532***     0.535***     0.515***     0.518***  
##                           (0.009)      (0.006)      (0.006)      (0.006)      (0.006)    
##   alcohol                              -0.571***    -0.556***    -0.533***    -0.519***  
##                                        (0.006)      (0.007)      (0.007)      (0.008)    
##   quality                                           -0.034***    -0.033***    -0.031***  
##                                                     (0.007)      (0.007)      (0.007)    
##   total.sulfur.dioxide                                            0.070***     0.066***  
##                                                                  (0.006)      (0.006)    
##   chlorides                                                                    0.031***  
##                                                                               (0.006)    
## -----------------------------------------------------------------------------------------
##   R-squared                0.572        0.848        0.848        0.852        0.852     
##   N                     4898         4898         4898         4898         4898         
## =========================================================================================
##   Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
## 
## Call:
## lm(formula = density ~ residual.sugar + alcohol + quality + total.sulfur.dioxide, 
##     data = df_normalize)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7756 -0.2302 -0.0275  0.1992 13.9992 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           0.194815   0.041295   4.718 2.45e-06 ***
## residual.sugar        0.515417   0.006316  81.609  < 2e-16 ***
## alcohol              -0.533281   0.007024 -75.928  < 2e-16 ***
## quality              -0.033144   0.006963  -4.760 1.99e-06 ***
## total.sulfur.dioxide  0.069670   0.006446  10.809  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3852 on 4893 degrees of freedom
## Multiple R-squared:  0.8518, Adjusted R-squared:  0.8517 
## F-statistic:  7029 on 4 and 4893 DF,  p-value: < 2.2e-16

O modelo linear acima, desenvolvido para prever a densidade do vinho, a partir do açúcar residual, álcool, qualidade e dióxido de enxofre, obteve um bom desempenho, descrevendo 85,17% da variância do atributo densidade.

Modelo de regressão linear para prever variável alcohol

## 
## Calls:
## a1: lm(formula = alcohol ~ density, data = df_normalize)
## a2: lm(formula = alcohol ~ density + residual.sugar, data = df_normalize)
## a3: lm(formula = alcohol ~ density + residual.sugar + chlorides, 
##     data = df_normalize)
## a4: lm(formula = alcohol ~ density + residual.sugar + chlorides + 
##     quality, data = df_normalize)
## a5: lm(formula = alcohol ~ density + residual.sugar + chlorides + 
##     quality + total.sulfur.dioxide, data = df_normalize)
## 
## =========================================================================================
##                             a1           a2           a3           a4           a5       
## -----------------------------------------------------------------------------------------
##   (Intercept)             -0.000       -0.000       -0.000       -0.836***    -0.834***  
##                           (0.009)      (0.008)      (0.008)      (0.055)      (0.054)    
##   density                 -0.780***    -1.127***    -1.024***    -0.958***    -0.942***  
##                           (0.009)      (0.012)      (0.013)      (0.013)      (0.014)    
##   residual.sugar                        0.459***     0.404***     0.360***     0.363***  
##                                        (0.012)      (0.012)      (0.012)      (0.012)    
##   chlorides                                         -0.156***    -0.142***    -0.137***  
##                                                     (0.009)      (0.008)      (0.008)    
##   quality                                                         0.142***     0.142***  
##                                                                  (0.009)      (0.009)    
##   total.sulfur.dioxide                                                        -0.039***  
##                                                                               (0.009)    
## -----------------------------------------------------------------------------------------
##   R-squared                0.609        0.699        0.718        0.731        0.732     
##   N                     4898         4898         4898         4898         4898         
## =========================================================================================
##   Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
## 
## Call:
## lm(formula = alcohol ~ density + residual.sugar + chlorides + 
##     quality + total.sulfur.dioxide, data = df_normalize)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.6265 -0.3468 -0.0296  0.3062 14.2780 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          -0.833991   0.054406 -15.329  < 2e-16 ***
## density              -0.941688   0.013761 -68.433  < 2e-16 ***
## residual.sugar        0.363483   0.012041  30.187  < 2e-16 ***
## chlorides            -0.136981   0.008435 -16.240  < 2e-16 ***
## quality               0.141886   0.009170  15.473  < 2e-16 ***
## total.sulfur.dioxide -0.039014   0.008797  -4.435 9.41e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5175 on 4892 degrees of freedom
## Multiple R-squared:  0.7325, Adjusted R-squared:  0.7322 
## F-statistic:  2679 on 5 and 4892 DF,  p-value: < 2.2e-16

O modelo linear para prever o percentual alcoólico do vinho, a partir da densidade, do açúcar residual, cloro, qualidade e dióxido de enxofre obteve um desempenho razoável, descrevendo 73,22% da variância da variável álcool.


Gráficos Finais e Sumário

Primeiro Gráfico

##    3    4    5    6    7    8    9 
##   20  163 1457 2198  880  175    5
## [1] 0.9258881

Descrição do Primeiro Gráfico

É importante ressaltar que os valores da variável qualidade estão muito concentrados entre 5 e 7, contabilizando aproximadamente 93% de todas as amostras. Esse fator dificulta a sensibilidade dos modelos preditivos e a força das correlações dos atributos com a qualidade do vinho.

Segundo Gráfico

Descrição do Segundo Gráfico

Apesar de não haver uma correlação forte entre os atributos e a qualidade do vinho, foi verificado fortes correlações entre as propriedades químicas do vinho, tal como entre as variáveis açúcar residual, densidade e percentual alcoólico. A partir da análise desses relacionamentos, é possível identificar um certo padrão entre as diferentes notas de qualidade do vinho. O gráfico acima apresenta a forte correlação positiva entre a variável açúcar residual e densidade, demonstrando que quanto mais açúcar sobra após o processo de fermentação do vinho, maior a densidade da bebida e menor o percentual alcoólico. Além disso, segmentando as amostras pelas diferentes notas de qualidade, é verificado que nas observações de notas maiores, ocorre maior proporção das cores branco e verde, demonstrando que menos açúcar residual, menos densidade e maior percentual alcoólico são características de vinhos de maior qualidade.

Terceiro Gráfico

Descrição do Terceiro Gráfico

O gráfico acima representa as correlações entre os atributos açúcar residual, densidade, percentual alcoólico e seus relacionamentos com a qualidade do vinho. Notas medianas e baixas possuem maior incidência em vinhos com propriedades químicas de maior açúcar residual, maior densidade e menor percentual alcoólico, ao passo que notas maiores possuem menos açúcar residual, menos densidade e maior percentual alcoólico, o que é verificado através da diferença de cores (notas de qualidade) nas amostras.


Reflexão

O dataset estudado possui 4898 observações de diferentes vinhos brancos. Para cada observação, foi coletada três avaliações de qualidade (variável sensorial) de diferentes especialistas de vinho. A mediana das notas (entre 0 e 10) de cada vinho foi considerada. Iniciei o estudo avaliando cada variável individualmente, verificando suas distribuições e realizando transformações quando as distribuições não apresentavam normalidade. Após, foi realizado análises bivariadas e multivariadas entre os atributos, identificando assim variações, correlações e padrões entre as segmentações de qualidade, álcool e densidade. Foi identificado interessantes relacionamentos entre os atributos e seus possíveis impactos para a qualidade de um vinho. Por fim, modelos preditivos foram desenvolvidos, três modelos para prever a nota da qualidade de vinho, um para prever a densidade e outro para o percentual alcoólico.

Apesar de não haver fortes relacionamentos lineares entre as propriedades do vinho com a nota de qualidade, foi verificado fortes relacionamentos entre os atributos açúcar residual, densidade e percentual alcoólico. Quando tais relacionamentos são analisados sobre diferentes notas de qualidade, é verificado um padrão de que vinhos com boas notas possuíram uma fermentação mais completa. Ou seja, esses vinhos possuem menos açúcares residuais, os quais pode-se auferir que não foram transformados em álcool durante a fermentação, e que com isso obteve-se um maior percentual alcoólico e uma menor densidade no vinho.

Os modelos lineares para prever o valor dos atributos densidade e percentual alcoólico apresentaram bons resultados, entretanto por serem atributos e sua coleta química poder ser realizada, não possuem tanto valor quanto a predição da variável de interesse qualidade.

Em relação aos modelos preditivos para a variável qualidade, três modelos foram desenvolvidos. A aplicação do algorítmo SVM para um modelo de classificação obteve resultados satisfatórios, obtendo uma acurácia de 66,12%. Segmentando as notas de qualidade entre “ruins”, “médias” e “boas”, o modelo com SVM obteve uma acurácia de 82,20%. Entretanto, ambos modelos demonstraram fraca sensibilidade para identificar vinhos ruins. Estudos mais aprofundados podem ser aplicados para buscar melhores resultados, tal como realizados mais tratamentos no dataset eliminando outliers, aperfeiçoar a coleta de dados buscando outras propriedades do vinho, alterar o modo da coleta da variável sensorial da qualidade, refinar o modelo preditivo desenvolvido e desenvolver novos modelos aplicando outros algoritmos.